强化学习(RL)已在机器人控制中广泛采用。尽管取得了许多成功,但一个主要的持续问题可能是数据效率非常低。一种解决方案是交互式反馈,已证明可以大大加速RL。结果,有很多不同的策略,但是,这些策略主要是在离散的网格世界和小规模最佳控制场景上进行测试的。在文献中,关于哪种反馈频率是最佳的,或者当时反馈是最有益的。为了解决这些差异,我们分离并量化了具有连续状态和动作空间的机器人任务中反馈频率的影响。这些实验包括不同复杂性的机器人操纵臂的逆运动学学习。我们表明,看似矛盾的报道现象在不同的​​复杂程度下发生。此外,我们的结果表明,没有任何理想的反馈频率存在。相反,随着代理商在任务的熟练程度的提高,反馈频率应更改。
translated by 谷歌翻译
当前,随机化是用于机器人技术中数据驱动的学习算法的SIM2REAL传输中广泛使用的方法。尽管如此,大多数SIM2REAL研究报告了特定随机技术的结果,并且通常是在高度定制的机器人系统上,因此很难系统地评估不同的随机方法。为了解决这个问题,我们为机器人触及余量操纵器任务定义了易于制作的实验设置,该设置可以作为比较的基准。我们将四个随机策略与模拟和真实机器人中的三个随机参数进行比较。我们的结果表明,更多的随机化有助于SIM2REAL转移,但它也可能损害算法在模拟中找到良好策略的能力。完全随机的仿真和微调显示出差异化的结果,并且比测试的其他方法更好地转化为实际机器人。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
多模式对象识别仍是一个新兴领域。因此,公共数据集仍然很少且尺寸小。开发了此数据集以帮助填充此空缺,并具有63个对象的多模式数据,具有一些视觉和触觉歧义。数据集包含视觉,Kinesthetic和触觉(音频/振动)数据。要彻底解决感官模糊性,因此需要感觉集成/融合。本报告描述了数据集的创建和结构。第一部分介绍用于捕获对象的视觉和触觉属性的底层方法。第二部分描述了收集数据所需的技术方面(实验设置)。第三部分介绍了对象,而最终部分介绍了数据集的结构和内容。
translated by 谷歌翻译
Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
translated by 谷歌翻译
底面图像中的自动化视盘(OD)和光杯(OC)分割与有效测量垂直杯盘比率(VCDR)是一种在眼科中常用的生物标志物,以确定胶状神经神经病变的程度。通常,这是使用粗到1的深度学习算法来解决的,其中第一阶段近似于OD,第二阶段使用该区域的作物来预测OD/OC掩码。尽管这种方法广泛应用于文献中,但尚无研究来分析其对结果的真正贡献。在本文中,我们介绍了使用5个公共数据库的不同粗到精细设计的全面分析,包括从标准分割的角度以及估算青光眼评估的VCDR。我们的分析表明,这些算法不一定超过标准的多级单阶段模型,尤其是当这些算法是从足够大而多样化的训练集中学习的。此外,我们注意到粗糙阶段比精细的OD分割结果更好,并且在第二阶段提供OD监督对于确保准确的OC掩码至关重要。此外,在多数据集设置上训练的单阶段和两阶段模型都表现出对成对的结果,甚至比其他最先进的替代方案更好,同时排名第一的OD/OC分段。最后,我们评估了VCDR预测的模型与Airogs图像子集中的六个眼科医生相比,以在观察者间可变性的背景下理解它们。我们注意到,即使从单阶段和粗至细节模型中恢复的VCDR估计值也可以获得良好的青光眼检测结果,即使它们与专家的手动测量不高度相关。
translated by 谷歌翻译
在(特殊的)平滑样条问题中,一个人考虑了二次数据保真惩罚和拉普拉斯正则化的变异问题。可以通过用聚拉普拉斯的正规机构代替拉普拉斯的常规机构来获得较高的规律性。该方法很容易适应图,在这里,我们考虑在完全监督的,非参数,噪声损坏的回归问题中图形多拉普拉斯正则化。特别是,给定一个数据集$ \ {x_i \} _ {i = 1}^n $和一组嘈杂的标签$ \ {y_i \} _ {i = 1}^n \ subset \ subset \ mathbb {r}令$ u_n:\ {x_i \} _ {i = 1}^n \ to \ mathbb {r} $是由数据保真项组成的能量的最小化器,由数据保真术语和适当缩放的图形poly-laplacian项组成。当$ y_i = g(x_i)+\ xi_i $,对于IID噪声$ \ xi_i $,并使用几何随机图,我们在大型中识别(高概率)$ u_n $ to $ g $的收敛速率数据限制$ n \ to \ infty $。此外,我们的速率(到对数)与通常的平滑样条模型中已知的收敛速率相吻合。
translated by 谷歌翻译
基于内核的测试提供了一个简单而有效的框架,该框架使用繁殖内核希尔伯特空间的理论设计非参数测试程序。在本文中,我们提出了新的理论工具,可用于在几种数据方案以及许多不同的测试问题中研究基于内核测试的渐近行为。与当前的方法不同,我们的方法避免使用冗长的$ u $和$ v $统计信息扩展并限制定理,该定理通常出现在文献中,并直接与希尔伯特空格上的随机功能合作。因此,我们的框架会导致对内核测试的简单明了的分析,只需要轻度的规律条件。此外,我们表明,通常可以通过证明我们方法所需的规律条件既足够又需要进行必要的规律条件来改进我们的分析。为了说明我们的方法的有效性,我们为有条件的独立性测试问题提供了一项新的内核测试,以及针对已知的基于内核测试的新分析。
translated by 谷歌翻译
几项作品已经研究了主观文本,因为它们可以在用户中引起某些行为。大多数工作都集中在社交网络中的用户生成的文本上,但是其他一些文本也包括对某些主题的观点,可能会影响政治决策期间的判断标准。在这项工作中,我们解决了针对新闻头条领域的有针对性情绪分析的任务,该领域由主要渠道在2019年阿根廷总统大选期间发布。为此,我们介绍了1,976个头条新闻的极性数据集,该数据集在2019年选举中以目标级别提及候选人。基于预训练的语言模型的最先进的分类算法的初步实验表明,目标信息有助于此任务。我们公开提供数据和预培训模型。
translated by 谷歌翻译
在工业机器人附近工作时,人体安全一直是重中之重。随着人类机器人协作环境的兴起,避免碰撞的物理障碍已经消失,增加了事故的风险以及需要确保安全的人类机器人协作的解决方案。本文提出了一个安全系统,该安全系统实现速度和分离监控(SSM)的操作类型。为此,根据工业协作机器人的当前标准,在机器人的工作区中定义了安全区域。基于深度学习的计算机视觉系统可检测,轨道和估计机器人附近的操作员的3D位置。机器人控制系统接收操作员的3D位置,并在模拟环境中生成其3D表示。根据检测到最接近操作员的区域,机器人停止或更改其工作速度。呈现人类和机器人相互作用的三种不同操作模式。结果表明,基于视觉的系统可以正确检测和分类操作员的安全区域,并且不同提出的操作模式确保机器人的反应和停止时间在所需的时间限制之内以确保安全性。
translated by 谷歌翻译